标准GPS为行为良好的流程提供了灵活的建模工具。然而,预计与高斯的偏差有望在现实世界数据集中出现,结构异常值和冲击通常会观察到。在这些情况下,GP可能无法充分建模不确定性,并且可能会过度推动。在这里,我们将GP框架扩展到一类新的时间变化的GP,从而可以直接建模重尾非高斯行为,同时通过非均匀GPS表示的无限混合物保留了可拖动的条件GP结构。有条件的GP结构是通过在潜在转化的输入空间上调节观测值来获得的,并使用L \'{e} Vy过程对潜在转化的随机演变进行建模,该过程允许贝叶斯在后端预测密度和潜在转化中的贝叶斯推断功能。我们为该模型提供了马尔可夫链蒙特卡洛推理程序,并证明了与标准GP相比的潜在好处。
translated by 谷歌翻译
建模是什么使广告有说服力的原因,即引起消费者的所需响应,对于宣传,社会心理学和营销的研究至关重要。尽管其重要性,但计算机视觉中说服力的计算建模仍处于起步阶段,这主要是由于缺乏可以提供与ADS相关的说服力标签的基准数据集。由社会心理学和市场营销中的说服文学的激励,我们引入了广泛的说服策略词汇,并建立了用说服策略注释的第一个AD图像语料库。然后,我们通过多模式学习制定说服策略预测的任务,在该任务中,我们设计了一个多任务注意融合模型,该模型可以利用其他广告理解的任务来预测说服策略。此外,我们对30家财富500家公司的1600个广告活动进行了真实的案例研究,我们使用模型的预测来分析哪些策略与不同的人口统计学(年龄和性别)一起使用。该数据集还提供图像分割掩码,该蒙版在测试拆分上标记了相应的AD图像中的说服力策略。我们公开发布代码和数据集https://midas-research.github.io/persuasion-avertisements/。
translated by 谷歌翻译
我们引入了一种新型的自动驾驶汽车 - 一种自动推土机,有望以有效,健壮和安全的方式完成建筑工地任务。为了更好地处理推土机的路径规划并确保建筑工地的安全性,对象检测是感知任务中最关键的组成部分之一。在这项工作中,我们首先通过开车来收集建筑工地数据。然后,我们彻底分析数据以了解其分布。最后,对两个众所周知的对象检测模型进行了训练,他们的性能通过广泛的训练策略和超参数进行了基准测试。
translated by 谷歌翻译
人类的生态成功依赖于我们在合作社会群体中灵活地组织的特征能力。成功的团体采用实质性专业和劳动分工。与大多数其他动物不同,人类在生活中通过反复试验学习什么角色。但是,当某些关键角色比其他角色更具吸引力,并且个人是自私的,那么就会存在社会困难:每个人都希望其他人扮演关键但无人机的角色,因此他们可能会自由自在地接受一个付费的人更好的。但是,如果所有人都采取行动,并且关键作用没有填补,就会发生灾难。在这种情况下,学习最佳角色分布可能是不可能的。因此,一个基本的问题是:劳动分裂如何在自私自利的学习个人群体中出现?在这里,我们表明,通过引入一种社会规范模型,我们将其视为分散的社会制裁模式,自私自利的个人群体可以学习涉及所有关键角色的劳动力划分。这种社会规范是通过重新分配人口中的奖励来努力使反社会角色不利的,同时激励亲社会角色,而这些角色不像本质上一样付出。
translated by 谷歌翻译
我们介绍了MLPERF小型推理基准(FPGA)平台上MLPERF微小的推理基准的最新结果。我们使用开源HLS4ML和Finn工作流,旨在使FPGA中优化神经网络的AI硬件代码民主化。我们介绍关键字发现,异常检测和图像分类基准任务的设计和实现过程。最终的硬件实现是针对速度和效率量身定制的,可配置的,可配置的空间数据流体系结构,并引入了新的通用优化和作为本工作的一部分开发的常见工作流程。完整的工作流程从量化感知培训到FPGA实施。该解决方案部署在芯片(PYNQ-Z2)和纯FPGA(ARTY A7-100T)平台上。由此产生的提交的潜伏期低至20 $ \ mu $ s和每次推论的低至30 $ \ mu $ j的能耗。我们展示了异质硬件平台上新兴的ML基准如何催化协作和开发新技术和更容易访问的工具。
translated by 谷歌翻译
我们向开放的神经网络交换(ONNX)中间表示格式提出扩展,以表示任意量化的量化神经网络。我们首先通过利用整数剪辑来引入对现有基于ONX的量化格式低精度量化的支持,从而产生了两个新的向后兼容的变体:带有剪辑和量化clip-dequantize(QCDQ)格式的量化运算符格式。然后,我们引入了一种新型的高级ONNX格式,称为量化ONNX(QONNX),该格式介绍了三个新运算符 - Quant,Biporlquant和Trunc,以表示均匀的量化。通过保持QONNX IR高级和灵活性,我们可以针对更广泛的平台。我们还介绍了与QONNX合作的实用程序,以及其在FINN和HLS4ML工具链中使用的示例。最后,我们介绍了QONNX模型动物园,以共享低精确的量化神经网络。
translated by 谷歌翻译
在本文中,我们提出了一个神经端到端系统,用于保存视频的语音,唇部同步翻译。该系统旨在将多个组件模型结合在一起,并以目标语言的目标语言与目标语言的原始扬声器演讲的视频与目标语音相结合,但在语音,语音特征,面对原始扬声器的视频中保持着重点。管道从自动语音识别开始,包括重点检测,然后是翻译模型。然后,翻译后的文本由文本到语音模型合成,该模型重新创建了原始句子映射的原始重点。然后,使用语音转换模型将结果的合成语音映射到原始扬声器的声音。最后,为了将扬声器的嘴唇与翻译的音频同步,有条件的基于对抗网络的模型生成了相对于输入面图像以及语音转换模型的输出的适应性唇部运动的帧。最后,系统将生成的视频与转换后的音频结合在一起,以产生最终输出。结果是一个扬声器用另一种语言说话的视频而不真正知道。为了评估我们的设计,我们介绍了完整系统的用户研究以及对单个组件的单独评估。由于没有可用的数据集来评估我们的整个系统,因此我们收集了一个测试集并在此测试集上评估我们的系统。结果表明,我们的系统能够生成令人信服的原始演讲者的视频,同时保留原始说话者的特征。收集的数据集将共享。
translated by 谷歌翻译
最近的研究表明,在多个应用中,基于深度学习(DL)的MRI重建优于常规方法,例如并行成像和压缩传感(CS)。与通常使用预定的正规化线性表示形式实现的CS不同,DL固有地使用从大数据库中学到的非线性表示。另一个工作线使用转化学习(TL)通过从数据中学习线性表示来弥合这两种方法之间的差距。在这项工作中,我们将CS,TL和DL重建的想法结合在一起,以学习深层线性卷积转换,作为算法展开方法的一部分。使用端到端训练,我们的结果表明,所提出的技术可以将MR图像重建为与DL方法相当的水平,同时支持统一的不足采样模式,与常规CS方法不同。我们提出的方法依赖于凸稀疏的图像重建,并在推理时线性表示,这可能有益于表征鲁棒性,稳定性和概括性。
translated by 谷歌翻译
物理驱动的深度学习方法已成为计算磁共振成像(MRI)问题的强大工具,将重建性能推向新限制。本文概述了将物理信息纳入基于学习的MRI重建中的最新发展。我们考虑了用于计算MRI的线性和非线性正向模型的逆问题,并回顾了解决这些方法的经典方法。然后,我们专注于物理驱动的深度学习方法,涵盖了物理驱动的损失功能,插件方法,生成模型和展开的网络。我们重点介绍了特定于领域的挑战,例如神经网络的实现和复杂值的构建基块,以及具有线性和非线性正向模型的MRI转换应用。最后,我们讨论常见问题和开放挑战,并与物理驱动的学习与医学成像管道中的其他下游任务相结合时,与物理驱动的学习的重要性联系在一起。
translated by 谷歌翻译
英语水平评估已成为过滤和选择学术界和工业的预期候选人的必要度量。随着这种评估需求的增加,越来越必要拥有自动化的人类可意识的结果,以防止不一致并确保对第二语言学习者有意义的反馈。基于特征的经典方法在理解得分模型学习的内容方面更具可解释。因此,在这项工作中,我们利用古典机器学习模型作为分类和回归问题的语音评分任务,其次是彻底的研究来解释和研究语言线索与扬声器的英语水平之间的关系。首先,我们提取五个类别(流利,发音,内容,语法和词汇和声学)的语言学家特征,并列车模型到级响应。相比之下,我们发现基于回归的模型相当于或更好地比分类方法更好。其次,我们进行消融研究以了解每个特征和特征类别对熟练分级性能的影响。此外,要了解个别特征贡献,我们展示了顶部特征对分级任务的最佳执行算法的重要性。第三,我们利用部分依赖性地块和福芙值来探索特征重要性,并得出结论,最好的培训模式了解用于分级本研究中使用的数据集的底层尺寸。
translated by 谷歌翻译